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南昌 330032) 


多 级 属性 是 将 诊断 测验 中 传统 的 二 值 ( 即 两 种 水 平 , 通常 定义 为 0 和 1) 属 性 定义 为 多 值 (多 个 水 平 可 以 为 


0, 1, ...), 它 不 但 可 以 描述 学 生 对 于 知识 属性 是 否 掌 握 ,， 而 且 可 


以 描述 学 生 在 属性 上 的 掌握 程度 , 这样 使 得 诊断 测 


验 能 提供 给 被 试 更 丰富 的 知识 掌握 详情 本文 将 适用 
和 矩阵 验证 和 估计, 在 两 种 常见 的 条 件 下 ,设计 了 了 两 
居 合 佑 计算 法 适 ) 
了 很 大 可 


数量 的 “基础 项 目 ”， 在线 估计 算法 对 于 新 项 目 
法 的 使 用 。 
关键 词 ”多 级 属性 , Q 和 矩阵, p-DINA 模型 , S 统计 量 
分 类 号 B841 
1 引言 


随 着 社会 的 发 展 , 教育 和 心理 测验 已 经 不 满足 
于 单一 的 总 体 评 价 (overall assessment)。 认 知 诊断 评 
价 (cognitive diagnosis assessment，CDA) 可 以 提供 
学 生 在 知识 上 的 掌握 详情 , 已 受到 社会 的 广泛 关注 
(Leighton & Gierl, 2007; Tatsuoka, 2009; Rupp et al., 
2010; Z7 HER, 2019; von Davier & Lee, 2019). 传统 
的 测验 ， 如 基于 经 典 测验 理论 (classical test theory, 
CTT) 或 基于 项 目 反应 理论 (item response theory, 
IRT) 的 测验 都 仅仅 提供 学 生 的 总 体 分 数 或 能 力 ， 除 
了 这 个 总 体 评价 之 外 , CDA 还 可 以 提供 学 生 的 知识 
状态 (knowledge state, KS)， 这 个 知识 掌握 状态 可 以 
对 学 生 的 学 习 、 教 师 的 教学 和 教学 效果 的 评价 起 到 
很 好 的 指导 和 参考 作用 。 

通常 情况 下 , CDA 中 学 生 对 知识 的 掌握 情况 是 
用 0 或 1 来 描述 , 1 表示 学 生 掌 握 了 某 个 知识 , 0 表 
示 没 有 掌握 ， 即 学 生 对 知识 的 掌握 仅仅 有 2 个 水 
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于 二 级 属性 @ 矩阵 的 统计 量 (S 统计 量 ) 拓 
种 估计 算法 : 
j 于 对 专家 界定 的 初始 o 矩阵 进行 验 订 


展 到 多 级 属性 下 的 0 
目 计 算法 和 在 线 估 计算 法 。 模 拟 实验 结果 表明 : 


KE 


E， 当 初始 2 和 矩阵 中 包含 较 少 的 错误 时 ,通过 联合 估计 算法 
能 恢复 正确 的 O JER, 在 线 估计 算法 适用 于 对 “新 项 目 * 进 行 属性 向 量 和 项 目 参数 的 在 线 标定 , 基于 一 定 
的 估计 也 能 达到 较 满 意 的 成 功率 ,实证 数据 分 析 则 进一步 展示 了 该 方 


平 。 文 献 中 通常 把 CDA 中 细 粒 度 的 知识 用 属性 
(attribute; Leighton et al., 2004) 来 描述 ， 学 生 在 这 多 
个 属性 上 的 掌握 情况 就 是 学 生 的 KS。 因 此 , 学 生 的 
KS 通常 是 一 个 二 值 癌 将 学 生 对 属性 的 掌握 情 
况 用 0 和 1 来 描述 的 好 处 是 相对 简单 ， 容 易 解 释 ， 
但 是 却 也 相对 粗糙 ,不 能 准确 刻画 学 生 在 属性 上 的 
掌握 程度 ， 因 为 两 个 在 某 属 性 上 的 状态 都 为 0 的 学 
生 之 间 还 是 有 掌握 程度 上 的 区 别 的 。 也 正 是 因为 如 
此 ， 有 很 多 研究 者 考虑 将 属性 的 二 种 取 值 考虑 设置 
成 多 种 取 值 (Karelitz, 2004; von Davier, 2008; Chen 
& de la Torre, 2013; Sun et al., 2013; Z356, RAW, 
2015; RAI, SETA, 2015; 詹 沛 达 等 , 2016; Zhan 
et al., 2020; Shang et al., 2021)。 实 际 应 用 中 ， 有 很 
多 情况 都 是 对 知识 属性 的 多 水 平 要 求 和 考查 ， 比 如 
《全 日 制 义务 教育 数学 课程 标准 (修改 稿 )》 中 就 使 
用 了 “了 解 (认识 )”、“ 理 解 "、“ 和 掌握 * 和 “运用 ”这 4 
个 顺序 类 别 词汇 来 表述 知识 技能 目标 的 不 同 水 平 。 
因此 , 多 级 属性 能 够 对 学 生 做 出 更 为 精细 地 划分 ， 


EX 


Ho 
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将 属性 定义 成 多 级 的 诊断 测验 具有 现实 应 用 价值 
和 前 景 。 

也 正 是 因为 如 此 , 研究 者 们 对 基于 多 级 属性 的 
CDA 展开 了 研究 ， 有 针对 性 地 开发 了 诊断 模型 ， 比 
如 Karelitz (2004) 构 建 了 基于 顺序 类 别 属 性 编码 
(ordered-category attribute coding, OCAC) 的 诊断 模 
型 OCAC-DINA, 并 且 对 Q 矩阵 中 存在 缺失 时 的 参 
数 估计 和 分 类 进行 研究 ; 还 有 基于 其 它 诊断 模型 所 
开发 的 多 级 属性 模型 ， 像 RRUM 下 的 多 级 属性 模 
型 (Templin，2004)，LCDM 下 的 多 级 属性 模型 
(Templin & Bradshaw, 2014); GDM 下 的 多 级 属性 模 
型 (Haberman et al., 2008; von Davier, 2008); Zhan 
等 人 (2020) 构 建 了 高 阶 的 多 级 属性 的 诊断 模型 等 ; 
与 前 面 这 些 研究 不 同 的 是 ，Shang 等 人 (2021) 借 鉴 
多 维 IRT 的 思想 ， 定 义 连续 的 多 级 属性 , 并 且 构 建 
了 可 以 处 理 连 续 多 级 属性 的 诊断 模型 。 同 传统 的 
CDA 一 样 ,多 级 属性 CDA 中 的 O 和 矩阵 的 作用 也 十 
分 关键 , 它 的 正确 性 会 直接 影响 模型 参数 的 识别 、 
被 试 的 分 类 万 至 整个 测验 的 信和 度 和 效 度 。 并 且 更 重 
要 的 是 , 在 实际 应 用 中 , 仅仅 由 专家 界定 的 0 矩阵 
很 容易 出 现 错误 或 专家 意见 不 一 致 的 情况 (de la 
Torre, 2008; DeCarlo, 2012; Liu et al., 2012; 喻 晓 锋 
4t 2015a; Yu & Cheng, 2020)。 从 目前 已 有 的 研究 
来 看 ,研究 者 们 采用 的 多 级 属性 @ 和 矩阵 大 都 是 由 专 
家 界定 或 模拟 生成 , 通常 假定 它 是 正确 的 , 没有 对 
它 的 正确 性 或 合适 性 进行 验证 , 还 缺乏 对 多 级 属性 
Q 和 矩 阵 的 验证 和 估计 方法 进行 研究 。 因 此 ， 人 迫切 需 
要 研究 客观 的 方法 来 对 其 正确 性 进行 验证 或 估计 。 
本 研究 拟 将 适合 二 级 属性 下 O 矩阵 的 验证 和 估计 方 
法 拓展 到 适合 多 级 属性 @ 和 矩阵 的 情况 ,研究 客观 的 
验证 或 估计 多 级 属性 矩阵 的 方法 ， 以 期 能 促进 多 
级 属性 CDA 的 发 展 。 


2 多 级 属性 O 矩 阵 及 诊断 模型 


在 正式 介绍 多 级 属性 O 矩阵 的 佑 计算 法 之 前 ， 
首先 对 多 级 属性 O 矩阵 及 对 应 的 诊断 模型 进行 介绍 。 
21 多 级 属性 0 矩阵 

为 方便 介绍 , 在 不 引起 误解 的 情况 下 , 将 仅仅 
有 0, 1 两 种 取 值 的 属性 称 为 二 级 属性 (binary 
attribute)， 仅 仅 由 二 值 属 性 构成 的 O 和 矩阵 称 为 二 级 
属性 O 和 矩阵 (binary-attribute Q matrix, BOM), 用 Qg 
表示 , 将 采用 @ 的 CDA 记 为 BCDA; 将 可 取 0, 1, 
2，… 多 种 值 的 属性 称 为 多 级 属性 ,包含 多 级 属性 
的 0 和 矩阵 称 为 多 级 属性 QO 和 矩 阵 (polytomous-attribute 


Q matrix, POM), JH Op 表示 , 将 采用 OQp 的 CDA id 
为 PCDA。0Qb 是 一 个 JxK 的 矩阵 ， 其 中 了 和 KK 分 
别 表示 项 目 数 和 属性 数 ，Q5p 中 的 元 素 记 为 qx, 与 
二 级 的 Qs 不 同 ，Qbp 中 的 qj 有 Mi 个 水 平 , 取 值 空 
间 为 0,1,… Mi -1。 

下 面 以 一 简单 的 多 级 属性 OQ 和 矩阵 (Karelitz， 
2004) 为 例 ， 这 个 Qs 中 有 4 个 项 目 , 共 考 察 了 2 个 
属性 ， 其 中 属性 1 和 属性 2 WA 0,1,2,3, 4 35 5 
水 平 。 


属性 1 属性 2 
项 目 0 4 
Qp = 项目? 2 3 
Jji H3 3 2 
Jii H4 4 1 
如 果 属 性 按 按 传统 的 二 级 方式 , 用 0 作为 截断 
点 来 对 属性 进行 划分 , 则 其 所 对 应 的 @ FEREAU) 
所 示 。 


(1) 


属性 1 属性 2 
项 目 0 1 
p = 项 目 2 1 1 (2) 
Jji H3 1 1 
项 目 4 1 1 


当 测验 考虑 天 个 属性 ， 知 采用 二 级 属性 ， 最 多 
能 将 学 生 总 体 分 为 2* 类 ， 而 采用 多 级 属性 (各 属性 
可 能 的 取 值 个 数 记 为 Mi )， 则 最 多 可 将 学 生 总 体 分 

K K 
为 [ax 类 , 很 明显 ] [us 总 是 大 于 2* 的 。 举 个 简 
k=1 k=l 

单 的 例子 , 假设 测验 考察 2 个 属性 ， 如 果 采 用 二 级 
属性 ， 最 多 可 以 将 学 生 分 为 2” =4 类 ,如 果 采 用 5 
值 属性 ， 则 可 以 将 学 生 分 为 =25 类 。 
2.2 多 级 属性 下 的 诊断 模型 

已 开发 的 适合 多 级 属性 的 诊断 模型 主要 有 
OCAC-DINA (Karelitz, 2004), LCDM 下 的 多 级 属性 
模型 (Templin & Bradshaw, 2014), GDM 对 应 的 多 级 
属性 诊断 模型 (Haberman et al, 2008; von Davier, 
2008)， 基 于 G-DINA 框架 下 的 多 级 属性 模型 ， 比 如 
Chen 和 de la Torre (2013)， 蔡 艳 和 涂 冬 波 (2015)， 
高 阶 的 多 级 属性 模型 (Zhan et al, 2020),， 连续 的 多 
级 属性 诊断 模型 (Shang et al., 2021) 等 。 在 这 里 , 为 
节省 篇 幅 ， 仅 仅 介 绍 与 本 文 有 关 的 pG-DINA 和 
p-DINA 模型 。 

pG-DINA (polytomous generalized deterministic 
inputs, noisy, “and” gate)B[| G-DINA 模型 的 多 级 属 
性 版 本 (Chen & de la Torre, 2013)。 为 方便 介绍 并 且 
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不 失 一 般 性 , 假定 测验 中 所 有 属性 有 相同 的 水 平 数 ， 
即 M, = M ,相关 的 符号 与 Chen 和 de la Torre (2013), 


K 
de la Torre (2011) 保 持 一 致 。 其 中 K) = 》1(qj > 0) 
| 


用 来 表示 项 目 j 所 考察 的 属性 的 个 数 ， 为 方便 介绍 ， 


假设 项 目 j 考察 的 属性 恰好 是 前 Kj 个 属性 , DEI 
j 所 需要 的 属性 可 以 表示 为 简化 的 向 量 or = 
(a5, ee) ， 其 中 1=1…,M™’,ay 中 的 元 素 的 取 


值 范围 是 [0, M -1], 这 样 一 来 , 项目 j 需要 考虑 的 
属性 向 量 个 数 由 M* 下 降 到 M“ ， 即 将 那些 没有 
考察 的 属性 不 予 考虑 ， 当 然 这 样 的 简化 也 可 以 提高 
参数 估计 的 速度 。 

在 p-DINA 模型 下 ,每 个 项 目 都 将 学 生 分 为 两 
类 ， 即 掌握 项 目的 学 生 ( 掌 握 了 题目 所 考察 的 属性 ， 
并 且 考 生 对 属性 的 掌握 水 平 都 不 低 于 题目 所 考察 
的 水 平 ) 和 未 掌握 项 目的 学 生 ( 没 有 完全 掌握 题目 所 
考察 的 属性 ， 或 者 考生 对 属性 的 掌握 至 少 有 一 个 低 
于 题目 所 考察 的 水 平 )。 进 一 步 ， 对 于 项 目 j 来 说 ， 
若 qj =m， 则 学 生 在 该 属性 上 的 掌握 情况 wx 可 以 
压缩 为 一 个 二 级 的 状态 ， 即 
pe | if Qn «qj 


Oy = 


sn 


G) 


1 otherwise 


记 aj = (655.0) 为 压缩 后 的 属性 掌握 向 


j 


E, HopI-1-425, ,这 样 就 将 被 试 参数 的 个 数 由 
M 所 下 降 到 2% ， 关 于 这 部 分 的 详细 过 程 请 参 
Chen 和 de la Torre (2013) 的 Table 2, 

在 pG-DINA 模型 的 饱和 形式 下 , 属性 向 量 为 
cy 的 被 试 正确 作答 项 目 j 的 概率 为 


K; 
P(X, - ay )= 8; 53x72 
k=l 


K K K 
xk 3k kk 
DD omaa s+, wl Lei, © 
~ k=l 


k'>k k=1 

其 中 560 表示 项 目 j 的 截 距 参 数 ， 即 学 生 未 掌握 该 
项 目的 任何 属性 时 的 作答 概率 ; o, 是 属性 的 主 
效应 ， 即 学 生 掌握 属性 大 所 带 来 的 正确 作答 概率 增 
加 的 部 分 Oj 是 属性 大 和 大 的 交互 效应 ， 即 学 生 
同时 掌握 属性 上 和 已 所 带 来 的 正确 作答 概率 增加 
的 部 分 61..g; 是 属性 1…, 有 7 的 交互 效应 。 

当 只 考虑 截 距 和 K 阶 交互 效应 时 , 则 pG-DINA 
就 变 成 了 p-DINA 模型 ; 当 只 考虑 截 距 和 天 ;个 属性 
的 主 效应 时 , 则 则 pG-DINA 就 变 成 了 pA-CDM 模 


型 ; 其 它 的 模型 ， 如 p-DINO, pR-RUM 等 模型 也 可 
以 在 pG-DINA 模型 上 增加 约束 获得 。 因为 p-DINA 
模型 相对 简单 ， 所 以 本 研究 中 基于 p-DINA 模型 研 
究 多 级 属性 O 矩阵 的 估计 和 了 验证。 


3 ”多 级 属性 0 矩阵 的 估计 方法 


在 介绍 多 级 属性 @ 和 矩阵 的 估计 之 前 ,首先 对 二 
级 属性 O 矩阵 的 估计 方法 作 个 简单 回顾 。 在 BCDA 
中 ， 有 很 多 研究 者 对 @ 和 矩阵 的 验证 和 估计 进行 了 深 
入 的 研究 ， 比 如 de la Torre (2008) 提 出 的 5 方法 ， 
涂 冬 波 等 人 (2012) 采 用 的 7 方法 , DeCarlo (2012) 采 
用 的 贝 叶 斯 方法 , Liu 等 人 (2012) 提 出 的 基于 5 统计 
量 的 方法 ，Xiang (2013) 采 用 的 惩罚 估计 进行 探索 
的 方法 , Chung (2014) 采 用 MCMC 佑 计 进 行 探索 的 
方法 , 喻 晓 锋 等 人 (2015b) 采 用 的 基于 5 统计 量 的 联 
合 估 计 方 法 ; de la Torre 和 Chiu (2016) 基 于 G-DINA 
模型 提出 了 一 种 经 验 的 @ 和 矩阵 验证 的 方法 ; Wang 
等 人 (2020) 在 已 知 @ 和 矩阵 中 部 分 题目 的 属性 定义 基 
础 上 ， 对 几 种 基于 似 然 比 检验 的 方法 进行 了 比较 ; 
Yu 和 Cheng (2020) 考 虑 了 一 种 基于 残 差 的 Q 矩阵 
验证 方法 等 。 

在 众多 的 方法 中 , 基于 5 统计 量 的 方法 是 完全 
基于 作答 数据 的 客观 方法 , 并 且 Liu 等 人 对 它 相 应 
的 理论 基础 进行 了 严格 的 证 明 (Liu et al., 2013; Xu, 
2013)， 该 方法 不 依赖 于 具体 的 诊断 模型 和 测验 计 
分 方式 ， 有 非常 好 的 拓 广 性 。 因 此 本 人 研究 拟 将 5S 统 
计量 拓展 到 适合 多 级 属性 O 矩阵 的 估计 。 考 虑 实际 
应 用 中 可 能 出 现 的 两 种 情况 , 第 一 种 情况 与 Liu 等 
人 (2012) 相 同 ， 即 已 经 由 专家 界定 了 0 EE, WN 
Qo。， 只 是 还 不 确定 2 是 否 完全 正确 (完全 正确 是 指 
Q, 中 每 个 项 目的 属性 向 量 都 正确 )， 因 此 需要 采用 
客观 的 方法 进行 验证 , 这 里 拟 对 5 统计 量 进行 拓 广 ， 
使 之 适合 多 级 属性 情况 下 的 CO 矩阵 验证 ; 考虑 的 另 
一 种 情况 是 手头 只 有 少数 的 项 目 属性 向 量 已 经 界 
定 ， 有 更 多 的 “新 项 目 ” 需 要 属性 向 量 的 定义 ， 即 考 
虑 多 级 属性 情况 下 的 @ 矩阵 估计 。 为 方便 介绍 ， 记 
适合 二 级 属性 的 5 统计 量 为 $6， 适合 多 级 属性 0 
ABER S RIEN Sp o 

下 面 介 绍 基 于 Sp 统计 量 的 多 级 属性 O 矩阵 的 
估计 。 

3.1 基于 Sp 统计 量 的 多 级 属性 O 矩阵 估计 

构建 S 统 计量 的 核心 是 TT 和 矩阵, T 和 矩阵 中 的 元 
素描 述 的 是 不 同 能 力 的 考生 在 测验 单个 题目 上 或 
所 有 可 能 题目 组 合 上 的 期 望 正 确 作答 概率 ， 它 将 期 
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望 作 答 分 布 和 模型 结构 联系 起 来 了 , 是 Q@ 和 矩阵 定义 
的 反映 ， 它 建立 起 了 属性 分 布 和 作答 分 布 间 的 线性 
依赖 关系 (Liu et al., 2012, 2013; Qin et al., 2015)。 
测验 考察 了 天 个 属性 ,每 个 属性 有 M 个 水 平 ， 
因此 , 学 生 的 属性 掌握 状态 有 ME 种 可 能 。T HERE 
一 共有 M* 列 , T 矩阵 的 行 分 别 对 应 了 各 类 学 生 对 
单个 项 目 、2 个 项 目的 组 合 、…, J 个 项 目 组 合 的 正 
确 作答 概率 ， 此 时 构建 的 工 和 矩阵 如 下 (4) 所 示 。 
T =Z 


" Pya Pa m,m“ 
| "UA dy 
{1 2) Pia Pio» di HEP 
f, 2, nJ} | D2) P12 ni HERE | 


T, 的 行 表示 各 单个 项 目 及 其 所 有 可 能 的 组 合 ， 
共有 27 -1 行 , 其 中 1^2 对 应 的 行 表示 同时 正确 作 
答 项 目 1 和 项 目 2 的 概率 ; 7, 的 列表 示 所 有 可 能 的 
FEX, 在 不 考虑 属性 间 关 系 的 情况 下 , HA MJ 

假设 学 生 的 总 体 分 布 记 为 p, 通常 情况 下 , 在 
没有 先 验 信息 的 情况 下 可 以 把 p 按 均匀 分 布 处 理 ， 
在 估计 过 程 中 采用 经 验 贝 叶 斯 方法 (de la Torre, 
2009) 来 对 其 进行 更 新 。 

学 生 在 各 单个 项 目 及 其 可 能 组 合 ( 即 (0). Cj] 
全 人 外 全 2…7) 上 的 期 望 作答 分 布 可 以 通过 
T,xp 得到， 如 (5) 式 所 示 , 其 中 ，P(R -1|0" p.) 
表示 该 被 试 总 体 中 正确 作答 项 目 1 的 期 望 概率 ， 其 
计算 方法 如 (6) 所 示 。 

PCR =1|0', p.) 


P(R" =1|0', p.) 


fupe (5) 
P(R' =1,R?° =1|0', p, V) 
P(RU =10', pa) = 2 PaP(R’ =10',a,0), (6) 


aeQ^ 

Hop, O0" 表示 被 试 的 属性 掌握 模式 全 集 。 另 一 
方面 , 学生 的 观察 作答 分 布 (用 表示 ) 可 以 从 作答 
数据 中 得 到 ,这 里 项 目 参 数 (用 少 表 示 ) 使 用 EM 算 
法 (de la Torre, 2011) 估 计 , 学 生 的 知识 状态 (用 & 表 
示 ) 通 过 MAP 算法 (de la Torre, 2009) 得 到 。 当 Q 4: 
阵 界定 正确 ， 各 参数 误差 较 小 的 情况 下 ,根据 大 数 
定律 ,在 被 试 人 数 足够 多 , BN oo BE, T? x 
ps 祝 刀 成 立即 测验 总 体 的 观察 作答 分 布依 概率 


收敛 于 其 期 望 分 布 (Liu et al, 2012, 2013; Xu, 
2013)。 当 包含 猜测 和 失误 时 , Q 矩阵 中 包含 的 错误 
越 少 ， 此 时 TO x po 和 有 之 间 的 距离 应 该 越 小 ， 
此 估计 多 级 属性 0 和 矩阵 的 目标 函数 为 
$(Q")- int |T? (0")p, -|, 

Ó Ed S(Q"), 


其 中 ，Q' 表示 一 个 一 般 的 @ ABE, KEERN, 
0 表示 O 和 矩阵 的 估计 值 ，“arg inf* 表 示 在 整个 可 能 
的 CO 和 矩阵 空间 中 , fi S(Q") 函数 取 最 小 值 时 的 CO E 
阵 即 为 其 估计 值 。 

下 面 介 绍 适合 于 前 面 提 到 的 两 种 应 用 情境 的 
算法 。 
3.2 


(7) 
(8) 


基于 Sp 统计 量 的 联合 估计 算法 JE 

记 测 验 真 实 的 O 矩阵 为 @. ， 从 专家 界定 的 Q 
和 矩阵 (初始 OQ 矩阵， 其 中 包含 错误 ) Cu 出发， 即将 
2 作为 输入 ,通过 联合 估计 算法 ,得 到 o 矩阵 的 
估计 值 O, HA V 和 被 试 参数 &， 比较 0 与 
9, 之 间 的 差异 ， 如果 @ 与 7 完全 一 致 , 则 表明 算 
法 成 功 估计 , 并 且 计 算 各 参数 的 估计 精度 ; 和 否则 佑 
计 不 成 功 。 联 合 估计 算法 具体 过 程 如 下 所 示 : 

(1) 基 于 Qo, 作答 数据 X, 分别 采 用 EM, MAP 
算法 估计 项 目 参数 和 被 试 参 数 (Chen & de la Torre, 
2013), 并 计算 S (Q,) 。 

DEQ 中 ,固定 其 它 项 目 ， 对 项 目 j， 取 其 属 
性 向 量 为 q; (可 能 的 取 值 空间 记 为 5， 有 MF -I 
种 取 值 ), 得 到 Of ,估计 参数 ,并 计算 8S(07) ， 取 
S(Q4) 最 小 时 对 应 的 gq’ 作为 项 目 7 的 属性 向 量 ， 即 : 

à; - arg min(S(Qj)) 
qj EO 

(3) 当 所 有 项 目 都 完成 估计 ， 记 为 一 次 迭代 ， 此 
时 得 到 的 O EEN Om), WE Om) 与 Q 完全 
一 致 ， 转 到 步骤 (5); 否则 迭代 次 数 加 1， 转 到 步骤 (4)。 

(4) 将 Om) 5 Q, 重复 步骤 (2)。 

(5) 算 法 结束 , 输出 O(m) 和 此 时 的 参数 估计 值 
V 4. 

3.3 基于 Sp 统计 量 的 在 线 估 计算 法 OE 

JE 算法 需要 专家 已 经 对 测验 中 的 所 有 项 目 
性 均 已 界定 ， 只 是 其 中 包含 错误 。 不 同 的 是 , OE 
法 只 需要 专家 对 少 部 分 项 目 已 经 界定 ， 对 剩余 的 项 
目 未 界定 (可 以 是 以 下 三 种 情况 : 新 编制 的 项 目 需 
要 界定 属性 、 专 家 之 间 对 属性 界定 持 不 同意 见 的 项 
目 、 属 性 定义 不 确定 或 有 怀疑 的 项 目 ),， 在 这 种 情况 
下 , 可 以 采用 OE 算法 进行 估计 。 
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记 已 界定 属性 向 量 的 这 部 分 项 目 为 00 ， 剩 
余 需 要 界定 的 项 目 记 为 0 的 ， 因 为 09” 部 分 已 经 
界定 , 每 次 从 Qo" 中 无 放 回 地 取出 一 个 项 目 ( 记 为 
qo ) 加 入 到 O P, AIF qo WIJE EH E qo, Ki 
ĝo T Qr: 重复 这 个 过 程 ， 直 到 O” 为 
空 。 在 线 佑 计算 法 的 具体 过 程 如 下 所 示 : 

(1) 从 09” 中 无 放 回 地 取出 一 个 项 目 加 入 到 
O 中， 为 方便 介绍 且 不 失 一 般 性 , 假设 新 加 入 的 
项 目 总 是 放 在 第 一 行 , BU quU OL — olv 。 

(2) 基 于 20 ， 作 答 数据 ， 估 计 项 目 参 数 和 被 
试 参数 ， 并 计算 sip), 

(3) 在 QD^* 中 ， 对 新 加 入 的 项 目 ， 取 其 属性 向 
量 为 %/ ,估计 参数 , 并 计算 SQQ), 取 5S(Q9”) 最 
小 时 对 应 的 gq 作为 项 目 j 的 属性 向 量 , 即 : 

à; =arg min(S(Qj^^)) 
qj EO” 

(4) 如 果 Qo" 不 为 空 ,重复 步骤 (1); 否则 转 到 
步骤 (5)。 

(5) 算 法 结束 , 输出 o^" 的 估计 值 O04 。 

需要 说 明 的 是 ， 当 初始 时 02* 完全 正确 且 包 
含 适当 数量 时 ,这 种 “ 增 量 式 ” 的 OE 算法 每 次 只 对 
第 一 个 项 目 进行 估计 ， 可 以 有 效 地 避免 了 一 次 加 入 
多 个 错误 项 目 所 带 来 的 * 遮 置 效应 (masking effect; 
Fung, 1993; Yuan & Zhong, 2008)"; 但 是 如 果 Qo 
也 包含 错误 或 者 数量 较 少 时 ，OE 算法 对 部 分 项 目 
的 估计 仍 可 能 包含 错误 ， 此 时 需要 对 OE 算法 的 输 
出 0 和 矩阵 采用 JE 算法 进行 估计 ， 即 采用 “二 次 校 
正 ” 的 方法 来 保证 估计 的 正确 性 。 

4 人 研究 设计 

为 了 评价 基于 8 统计 量 的 两 种 算法 对 于 多 级 属 
性 QO 和 矩阵 估计 的 表现 , 我们 通过 模拟 研究 考察 它们 
在 不 同 的 条 件 下 成 功 识别 正确 Q 矩阵 的 可 能 性 。 如 
前 面 所 述 , 假设 手 涉 已 有 专家 界定 的 CO EEQ, 
这 个 2 和 矩阵 中 可 能 存在 少量 的 错误 ,为 考察 Sp UE 
计量 的 表现 , 分 两 种 情况 ,第 一 种 情况 Cu 中 的 属 
性 向 量 被 界定 错误 仅仅 是 部 分 属性 的 值 存在 大 小 
上 的 错误 ， 即将 属性 的 值 过 高 的 设 定 或 过 低 ( 但 不 
包括 0) 的 设 定 ， 比 如 gq 的 值 应 该 为 2, 但 实际 上 专 
家 将 其 界定 为 1 或 3; 第 二 种 错误 情况 : 既 存 在 属 
性 的 值 在 大 小 上 的 错误 ， 也 存在 误 设 未 考察 的 属性 
或 缺失 考察 的 属性 ， 比 如 : RH q =(21000)' 设 置 
为 40010) 。 在 不 引起 误解 的 情况 下 ,下 文 将 这 两 


种 类 型 的 错误 分 别 简 称 为 错误 I 和 错误 II， 将 错误 I 
和 错误 IL 所 对 应 的 可 能 的 属性 向 量 空间 分 别 记 为 
9 和 Q,。 可 以 看 出 , 错误 I 是 实际 测验 中 的 一 般 
情形 , 错误 I 是 它 的 一 种 特殊 的 情形 。 

由 于 本 研究 中 被 试 可 能 的 属性 掌握 模式 数 为 
3 =243 ， 如 果 被 试 人 数 为 500 的 均匀 分 布 总 体 ， 
则 平均 每 类 被 试 数量 偏 少 , 仅 为 2.06, 故 样本 量 最 
小 取 1000 人 。 
41 对 于 JE 算法 

为 了 研究 Sp 统计 量 在 多 级 属性 O 矩阵 估计 中 
的 表现 ,考虑 的 因素 有 : 项 目 个 数 , 测验 人 数 , 包 
含 错 误 的 项 目 个 数 和 错误 项 目的 类 型 共 四 个 因素 ， 
其 中 项 目 个 数 参 考 Chen 和 de la Torre (2013) 关 于 多 
值 属性 0 和 矩阵 的 设 定 , 包括 2 个 水 平 , 分 别 为 15 
和 30, 测试 人 数 (3 个 水 平 , 1000, 2000 和 4000), 包 
含 错 误 的 项 目 类 型 (2 个 水 平 , 错误 I 和 错误 ID 和 错 
误 的 项 目 个 数 。 错 误 的 项 目 个 数 参 考 Liu 等 人 (2012) 
的 设置 , 共 3 个 水 平 , 分 别 为 3, 4 FILS, 表明 “初始 
的 Q 和 矩阵 "中 包含 3, 4 或 5 个 属性 向 量 被 错误 标定 
的 题目 , 余下 题目 的 属性 向 量 都 是 被 正确 标定 的 。 
因此 , 一 共有 2x3x2x3=36 个 实验 条 件 。 
42 对 于 OE 算法 

下 算法 中 , 已 假定 专家 对 所 有 的 ,7 个 项 目 都 进 
行 了 属性 向 量 界定 ，OE 与 JE 算法 不 一 样 的 是 专家 
只 是 对 “基础 项 目 * 部 分 进行 了 界定 , 余下 的 是 需要 
估计 的 “新 项 目 "。 本 研究 中 这 部 分 “新 项 目 ”的 属性 
向 量 初 值 是 随机 生成 的 。 这 里 考察 的 因素 主要 有 : 
项 目 个 数 ( 与 JE 算法 一 样 , 仍然 是 2 个 水 平 , 分 别 
X 15, 30), 测试 人 数 ( 与 JE 算法 相同 , 还 是 3 个 水 
平 , 1000, 2000 和 4000)， 基础 项目 个 数 参 考 Qin 等 
人 (2015，2020) 的 设置 ， 其 中 测验 长 度 为 30 时 有 8 
个 水 平 , 分 别 是 8, 9, 10, 11, 12, 13, 14 和 15; 测验 
长 度 为 15 时 有 6 个 水 平 , 分 别 是 5, 6, 7, 8, 9, 10。 
因此 , 一 共有 3x8+3x6=42 个 实验 条 件 。 
4.3 ”数据 模拟 
4.3.1 OQ 矩阵 

测验 的 真实 Q 矩阵 如 网 络 版 附录 中 的 表 Al 和 
K A2 所 示 ，Q 中 共有 30 LH, QS 中 有 15 个 项 
FH (Chen & de la Torre, 2013; Yu & Cheng, 2020)。 为 
方便 区 分 ,将 包含 30,15 个 项 目的 @ ERN 
0 ,0 o 
432 ”项 目 参 数 

项 目 参 数 假设 服从 均匀 分 布 ， 猜 测 参 数 和 失误 
参数 都 按 U(0.05,0.20) 模拟 。 
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4.3.3 ”被 试 参数 

被 试 的 知识 状态 分 布 按 均匀 分 布 模拟 ， 即 MF 
种 知识 状态 的 被 试 人 数 相近 。 
4.3.4 ”作答 数据 

基于 真实 的 Q 矩阵 、 项 目 参 数 和 被 试 参数 ， 按 
H8 p-DINA 模型 模拟 作答 数据 。 
4.3.5 初始 0 和 矩阵 

(1) 对 于 JE 算法 , 随机 从 真实 Q 矩阵 的 7 个 项 
目 中 选 出 若干 个 项 目 ， 并 将 其 属性 向 量 按照 预定 方 
案 (错误 I 和 错误 ID) 修 改 成 错误 的 状态 ,但 不 能 是 
全 0 的 向 量 , 也 不 能 是 其 正确 的 值 , 将 修改 后 的 矩 
阵 作 为 “初始 o BE". 

(2) 对 于 OE 算法 , 随机 从 真实 O 矩阵 的 7 个 项 
目 中 选 出 若干 个 项 目 作 为 “基础 项 目 ”， 而 余下 的 项 
目 作 为 “新 "项目 , “新 ”项 目的 属性 向 量 初始 值 按 随 
机 方式 生成 , 但 不 能 是 0 向 量 , 也 不 能 是 其 正确 的 
向 量 。 
43.6 ”参数 估计 

数据 的 模拟 和 分 析 采 用 matlab 编写 程序 完成 ， 
每 种 实验 条 件 重 复 100 次 , 最 后 取 100 次 的 平均 值 
作为 最 终 的 结果 。 
4.3.7 ”评价 指标 

这 里 采用 三 个 指标 来 评价 多 级 属性 O 和 矩阵 估 
计算 法 的 表现 , 分 别 是 : O 和 矩阵 成 功 恢复 率 、 平 均 
迭代 次 数 和 平均 执行 时 间 。@ 和 矩阵 成 功 恢复 率 是 指 
在 某 种 条 件 下 的 100 批 数 据 中 , SETA S HE O AREE 
完全 匹配 真实 0 和 矩阵 的 比率 , 计算 公式 为 


T 
$0.0) 
ro = A ; (9) 
这 里 了 为 实验 重复 次 数 , 这 里 取 100, 7 为 示 性 
函数 ，1(0, OL) TE Q 和 0Q; 完全 一 致 时 取 1, 否则 取 0。 
平均 迭代 次 数 是 对 100 次 估计 的 总 迭代 次 数 计 
算 平均 值 。 


T 


> ze 
— tl 
ANIo = T 
这 里 ;ze 表示 第 ! 批 数据 需要 的 迭代 次 数 。 
与 平均 迭代 次 数 类 似 , 我 们 同样 也 分 别 记录 了 
两 种 方法 的 平均 执行 时 间 ， 它 也 描述 了 对 应 方法 的 
计算 效率 , 具体 计算 公式 为 
T 
time, 


ART) es 
E 7 


(10) 


(11) 


这 里 time, 表示 第 1 批 数 据 需 要 的 执行 时 间 ， 以 
秒 为 单位 。 上 面 的 三 个 指标 中 ，ro 描述 的 是 算法 的 
佑 计 精 度 , 值 越 大 表示 算法 的 估计 精度 越 高 。 
ANI, 和 4RT 描述 的 是 算法 的 运行 效率 , 值 越 小 
表明 算法 的 效率 越 高 。 
44 研究 1: 多 级 属性 o 矩阵 和 参数 的 联合 估计 

联合 估计 适合 的 测验 情形 是 : 专家 已 对 测验 项 
目 都 已 界定 ， 只 是 对 部 分 项 目的 属性 定义 尚 不 确 
定 、 可 能 界定 错误 或 意见 不 统一 时 使 用 。 采 用 JE 
算法 可 以 对 @ 德 阵 进行 验证 ,并 且 输 出 建议 的 Q 和 珑 
阵 。 下 面 分 两 种 错误 类 型 进行 介绍 。 
4.4.1 仅仅 存在 属性 值 界 定 错误 时 的 联合 估计 

在 实际 应 用 中 ,专家 在 界定 某 些 项 目的 属性 值 
时 出 现 分 歧 或 错误 的 情况 ， 即 前 面 所 介绍 的 错误 L 
这 是 一 种 相对 简单 的 情形 。 因 此 本 研究 考察 当初 始 
Q 移 阵 中 有 部 分 项 目 仅仅 出 现 属性 低估 或 高 估 的 
情况 (不 包括 低估 至 0 或 从 0 高 估 的 情况 )。 

学 生 在 测验 中 的 作答 模拟 是 按 真 实 @ 矩阵 完 
成 ， 只 是 在 分 析 数 据 时 采用 包含 错误 的 “初始 @ XR 
阵 " 作 为 输入 , 采用 JE 算法 来 实现 对 @ 和 矩阵、 项 目 
参数 和 被 试 参数 的 联合 估计 , 最 后 比较 算法 估计 得 
到 的 O ERSAK 矩阵 之 间 的 差异 ， 若 完全 一 致 ， 
则 估计 成 功 ， 否 则 估计 失败 ,并 且 统 计 估 计 过 程 中 
的 迭代 次 数 。 
4.4.2 ”存在 属性 值 错 误 、 含 多 余 属 性 或 缺失 必要 属 

性 时 的 联合 估计 

相对 来 说 , 错误 I 是 比 错误 I 更 严重 的 错误 ， 
因为 不 但 会 出 现 属性 低估 和 高 估 ， 同时 还 会 出 现 将 
未 考察 的 属性 包含 进来 ,也 可 能 会 出 现 将 考察 的 属 
性 遗漏 ,这 在 实际 应 用 也 是 有 可 能 出 现 的 , 错误 I 
可 以 看 成 是 错误 I 的 一 种 特殊 情形 。 因 此 本 人 研究 考 
察 当初 始 @ 矩阵 出 现 错误 IHT 下 算法 的 表现 。 
4.5 研究 2: 多 级 属性 0 矩阵 和 参数 的 在 线 估 计 

在 线 估计 算法 OE 适合 的 另 一 种 测验 情形 ， 即 
仅仅 少 部 分 项 目 被 正确 界定 ， 有 大 批 项 目 需要 定义 
属性 向 量 的 情况 ， 比 如 对 编制 的 一 批 新 题 进 行 界 定 
(包括 属性 向 量 和 参数 )“ 新 项 目 ” 的 属性 向 量 不 需 
要 专家 进行 初始 界定 ， 可 以 按 随机 方式 生成 , 在 这 
种 情况 下 ， 可 以 借助 已 有 项 目的 信息 ,完成 对 新 项 
目的 界定 。 

界定 时 需要 学 生 同 时 作答 “基础 项 目 ”" 和 “新 项 
目 ” 佑 计时 固定 “基础 项 目 ”* 的 属性 向 量 , 只 需要 
估计 “新 项 目 ” 的 属性 向 量 。 为 了 充分 利用 已 有 信息 ， 
减少 “噪音 ”信息 引起 的 “ 遮 四 效应 ”masking effect; 
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Fung, 1993; Yuan & Zhong, 2008) 带 来 的 负面 影响 ， 
估计 时 采用 每 次 只 加 入 一 个 “新 项 目 ” 的 增 量 式 估 
计 的 方式 进行 。 并 且 ， 为 了 降低 由 于 “基础 题 ” 的 质 
量 所 带 来 的 影响 , 在 OE 算法 结束 后 ， 对 整个 O PB 
阵 再 使 用 JE 算法 进行 整体 估计 ， 提 高 估计 的 成 功 
率 。 最 后 比较 算法 估计 得 到 的 opt is o 
阵 之 间 的 差异 ,车 完全 一 致 ， 则 估计 成 功 ， 否则 佑 
计 失 败 , 并 且 统 计 估 计 过 程 中 的 迭代 次 数 。 

需要 注意 的 是 ，OE 算法 中 是 指 完成 所 有 的 “新 
项 目 ” 舍 计 后 ,， 如果“ 新 项 目 * 没 有 估计 成 功 ， 则 对 
包含 “基础 项 目 * 和 “新 "项 目的 9 矩阵 用 JE 算法 进 
行 联合 估计 ， 因 此 从 这 个 角度 来 看 , OE 算法 中 的 迭 
代 次 数 与 JE 算法 中 一 样 , 也 是 指 对 所 有 项 目 完成 
一 次 估计 的 次 数 。 
4.6 试验 结果 
4.6.1 JE 算法 的 估计 结果 

表 1~ 表 4 是 下 算法 在 项 目 数 (30, 15) 和 错误 类 
型 (I 和 了 时 的 估计 结果 ,从 结果 可 以 看 出 , JE 算法 
在 估计 QO 和 矩阵 时 ， 其 执行 效率 和 正确 率 受到 多 方面 
因素 的 影响 ， 比 如: 被 试 人 数 ， 测验 的 项 目 数 , 包 
含 的 错误 项 目 数 等 的 影响 。 人 研究 1 和 研究 2 是 分 别 
安排 在 两 台 云 服务 器 上 运行 的 ， 服务 器 的 具体 配置 
是 : CPU 是 2 颗 至 强 E5-2697, 十 二 核心 ; 内 存 类 
Æ! DDR5, 容量 是 64 G; 硬盘 类 型 是 固态 ,容量 512 
G。 从 算法 的 执行 效率 来 看 ， 虽 然 算法 的 搜索 空间 
已 经 下 降 了 很 多 , 但 是 依然 有 较 大 的 搜索 空间 ,各 


种 条 件 下 的 平均 执行 时 间 仍 然 较 大 ,最 低 情 况 下 需 
要 一 天 的 时 间 (89182.33 秒 )。 从 算法 的 正确 率 来 看 ， 
相对 来 看 ,测验 项 目 数 对 于 正确 率 的 影响 很 大 ， 测 
验 项 目 从 30 FEES] 15, 估计 成 功率 平均 下 降 了 
61.67%。 

从 表 1 和 表 2 中 可 以 看 出 , 被 试 人 数 和 测验 项 
目 数 都 与 @ 和 矩阵 估计 成 功率 有 正 向 的 相关 关系 ， 而 
错误 项 目 数 与 @ 矩阵 估计 成 功率 则 有 人 负 向 的 相关 
关系 。 根 据 本 研究 中 的 条 件 , 被 试 人 数 为 2000, W 
验 项 目 数 为 30， 可 以 达到 较 好 的 估计 结果 。 具体 来 
说 ,对 于 估计 成 功率 , O 矩阵 包含 30 题 时 各 条 件 下 
都 能 达到 80% 以 上 , 而 15 题 时 最 好 的 情况 都 要 小 
于 60%。 从 迭代 次 数 来 看 ,测验 项 目 数 为 15 时 , 各 
样本 条 件 下 需要 的 平均 迭代 次 数 小 于 2.5， 而 当 项 
目 数 达 到 30 时 ,对 应 需要 的 迭代 次 数 超过 3。 图 1 
和 图 2 进一步 展示 了 JE 算法 的 表现 随 着 错误 界定 
项 目 数 发 生变 化 的 趋势 。 

d 3 和 表 4 分别 是 测验 项 目 数 为 30, 15, 26H. 
Q@ 和 矩阵 中 包含 错误 类 型 开 时 的 估计 结果 。 可 以 看 出 ， 
一 方面 被 试 人 数 的 增加 可 以 提高 JE 算法 的 估计 成 
功率 ， 比 如 测验 长 为 30, 错误 项 目 数 为 3 和 5 HF, 
被 试 人 数 从 1000 提高 到 4000, 估计 成 功率 分 别提 
高 了 7% 和 13%。 男 一 方面 , 被 试 人 数 和 错误 项 目 
数 会 对 估计 成 功率 会 产生 交互 作用 ,因为 当 测验 长 
ERA 15， 错 误 项 目 数 3 和 5， 人 数 从 1000 提高 到 
4000,， 估计 成 功率 分 别提 高 了 18% 和 5%, 此 时 人 


表 1 错误 类 型 I Q M JE 算法 的 估计 成 功率 和 平均 迭代 次 数 
被 试 人 数 
包含 的 错 1000 2000 4000 
误 项 目 数 PHR o ”平均 执行 平均 迭 。 平均 执行 FHE ”平均 执行 
功率 (% 功率 (% Wm : 功率 (% T s 
RAKO kya ana) PIFO ky mo PFO 代 次 数 。 时 间 () 
3 94 2.05 197397.50 98 2.04 205128.46 98 2.00 211650.67 
4 92 2.14 210386.75 95 2.12 208827.46 96 2.14 213588.22 
5 81 2.30 234271.81 94 2.19 211649.67 94 2.21 215590.22 
X2 错误 类 型 I QP 时 JE 算法 的 估计 估计 成 功率 和 平均 迭代 次 数 
被 坛 人 数 
包含 的 错 1000 2000 4000 
误 项 目 数 PHR ”平均 执行 平均 从 ”平均 执行 PHE ”平均 执行 
功率 (% DE (A T K D(A% . N 
RIZO kyy mao PIFO kya mao PFO 代 次 数 。 时间 人 
3 36 3.13 89182.33 46 3.02 101401.32 54 2.92 109542.61 
4 21 3.63 90511.47 27 3.44 111399.52 38 3.33 115674.36 
5 18 3.89 135365.82 22 3.62 138115.65 25 3.47 144921.76 
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JB 算 法 对 CYP 和 OQ》 的 估计 结果 (错误 I) J 算法 对 O83P 和 OQ3 的 平均 迭代 次 数 (错误 DD) 
100 4.0 
90 3.8 
80 3.6 
g -o-Q1-1000 -a-Q2-1000 34 
e» 60 —e-Q1-2000 -e-Q2-2000 B3 aug 
30 Q1-1000 -&-Q2-1000 
& 50 ——Q1-4000 —— 02-4000 439 25-0100 2-02 2000 
40 2.6 ——Q1-4000  ——Q2-4000 
30 24 


20 2.2 
10 L J 
3 e. Na 4 5 
属性 向 量 错误 界定 的 项 目 数 属性 向 量 错误 界定 的 项 目 数 
图 1 错误 类 型 1 时 ,JE 算法 的 估计 结果 图 2 错误 类 型 1 时 , JE 算法 的 迭代 次 数 
表 3 错误 类 型 nm, Q? 时 JE 算法 的 估计 成 功率 平均 迭代 次 数 
被 试 人 数 
包含 的 错 1000 2000 4000 
误 项 目 数 FENE ”平均 执行 FHE ”平均 执行 FENE ”平均 执行 
TIEA Y 功率 (% " > 功 浴 (% ye T 
成 功率 (%) ayy 时间 G) 7200 kua mao — 72700 Rua qas) 
3 91 2.94 217999.39 97 2.38 207354.22 98 2.43 212017.28 
4 90 3.17 221085.75 95 2.58 209615.68 96 2.68 214643.81 
5 80 3.75 254841.29 89 3.32 242336.01 93 3.58 287900.52 
表 4 错误 类 型 I，05 时 JE 算法 的 估计 成 功率 和 平均 迭代 次 数 
被 试 人 数 
包含 的 错 1000 2000 4000 
Tx HZ EE Em EE Tm Pm "m TE 
E PHE PHR PHE ”平均 执行 | FHE ”平均 执行 
WES x WES TO i WES ST M 
成 功率 (%) — 代 次 数 mao PITO rya mmo PITO — 代 次 数 mgl) 
3 33 3.34 92723.60 45 3.32 101737.07 51 3.28 119922.70 
4 17 3.85 97788.49 25 3.74 111740.98 37 3.73 126056.07 
5 15 4.41 144782.21 18 4.32 184428.18 20 4.27 195388.36 


数 的 增加 对 低 错 误 项 目 数 影响 更 大 ,这 与 测验 长 度 
为 30 时 的 情况 正好 相反 。 图 3 和 图 4 是 测验 项 目 
Jy 15 题 时 下 算法 的 表现 随 着 错误 界定 项 目 数 发 生 
变化 的 情况 。 

综合 表 1, K2, 表 3 和 表 4 可 以 看 出 , 一 方面 ， 
当 错 误 类 型 为 I 时, 相同 人 数 、 题 目 条 件 下 要 上 略 低 


下 算法 对 CYP 和 Q8 的 估计 结果 (错误 人 DD) 


100 
90 
80 

70 -a-Q1-1000 —-e-Q2-1000 

S 60 —-Q1-2000 一 -Q2-2000 

& 50 ——Q1-4000 -a-Q2-4000 
吗 40 
30 
20 

10 ; 

3 4 5 

属性 向 量 错误 界定 的 项 目 数 


图 3 错误 类 型 I 时 , TE 算法 的 估计 结果 


于 错误 类 型 时 的 估计 成 功率 , 并 且 相 应 的 迭代 次 
数 也 要 更 多 , 这 是 因为 错误 类 型 I 时 , 项 目 属性 向 
量 可 能 的 取 值 空间 更 大 所 导致 的 ; 男 一 方面 ， 从 平 
均 运行 时 间 来 看 ， 相 对 于 错误 类 型 L, MERCA 
件 时 错误 类 型 ID 各 对 应 的 实验 条 件 需 要 相对 更 多 


JP 算 法 对 GP 和 OQ$ 的 平均 迭代 次 数 (错误 人 
-0-Q1-1000 -«-Q2-1000 
[ 9701-2000 -«-Q2-2000 
| —=—Q1-4000 ——Q2-4000 


2.54 

2.0 4 5 
属性 向 量 错误 界定 的 项 目 数 

图 4 RW ILE, JE FE WERKA 
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的 运行 时 间 , 这 一 点 是 和 更 大 的 迭代 次 数 相 一 致 的 。 
综合 图 1、 图 2、 图 3 和 图 4, 随 着 O 矩阵 中 包 
含 的 错误 项 目 数 增加 , 不 论 是 错误 类 型 I 还 是 错误 
类 型 N, JE 算法 估计 的 成 功率 在 下 降 ， 所 需要 的 迭 
代 次 数 在 增加 。 
4.6.2 OE 算法 的 估计 结果 
表 5 和 表 6 分别 是 OE 算法 在 Qi 和 QO); 不同 
基础 题 时 的 在 线 估计 结果 ， 从 结果 来 看 ， 要 想 达 到 


的 ， 而 联合 估计 过 程 的 耗 时 占用 了 时 间 的 大 部 分 , 8 
和 15 个 “基础 项 目 * 条 件 下 的 平均 迭代 次 数 分 别 为 
1.78 和 0.22。 

从 图 5~ 图 8 可 以 看 出 ， 当 测验 项 目 数 从 30 降 
到 15 时 , 算法 所 需要 的 迭代 次 数 会 有 较 大 的 增加 ， 
比如 基础 题 为 10 个 , 1000 A, 长 度 30 和 15 的 测验 
所 需要 的 迭代 次 数 分 别 为 0.74 和 1.06。 


较 好 的 估计 成 功率 , 不 同 被 坛 人 数 需要 的 基础 项 目 RE 
个 数 不 同 ， 被 试 人 数 越 多 时 需要 的 基础 项 目 越 少 , 98 
比如 对 于 210， 要 想 达 到 90% 以 上 的 估计 成 功率 ， m 
1000 人 需要 10 个 基础 题 , 2000 人 和 4000 人 只 需要 à » —o- Q1-1000 
8 个 基础 题 即 可 ; 要 想 达 到 95 以 上 的 成 功率 ，1000 ^ 90 —^-Q1-2000 
人 和 2000 人 都 至 少 需要 13 个 基础 题 , 而 4000 AR 88 Doe 
需要 12 个 基础 题 。 而 对 于 0 要 想 达 到 80% 以 上 360 1 1 is 
的 估计 成 功率 ,三 种 被 坛 人 数 都 需要 至 少 9 个 基础 基础 项 目的 数量 
题 。 对 于 相同 的 基础 题 数 , OE 算法 对 30 题 的 2 E 图 5 OE 算法 在 O3 的 估计 结果 
阵 估计 的 成 功率 要 高 于 15 题 的 o 矩阵 ,这 主要 是 
为 题目 数 增加 提高 了 被 试 的 属性 掌握 模式 估计 OF 算法 对 ON 的 平均 迁 代 次 数 
准确 率 导致 的 。 当 基础 题 为 10 时 ， 从 图 5 和 图 6 P 
来 看 ,估计 成 功率 是 随 着 基础 题 的 增加 而 增加 ， 所 Ti: sen 
需要 的 迭代 次 数 是 随 着 基础 题 的 增加 而 减少 的 , 图 号 i —o— Q1-4000 
7 和 图 8 也 显示 了 相同 的 变化 趋势 。 从 OE 算法 的 0.8 
N| 运行 效率 来 看 ， 随 着 “基础 项 目 "的 增加 ， 所 需要 的 04 
> 运行 时 间 在 下 降 ， 比 如 在 测验 长 为 30, 8 和 15 个 “ 基 | 
础 项 目 ”，1000 人 时 ,平均 运行 时 间 分 别 是 ic T ARR 
176481.88 和 23545.31 fh, 这 是 因为 OE 算法 所 花 
C — 费 的 时 间 主 要 是 由 * 新 题 * 的 数量 和 联合 估计 决定 图 6 OE PAHE Q7 的 先 代 次 数 
表 5 QP i} OE 算法 的 估计 成 功率 和 平均 迭代 次 数 
被 试 人 数 
包含 的 基 1000 2000 4000 
础 项 目 数 到 区 > 平均 执行 SEAA3 平均 执行 SE JA 平均 执行 
Bago Rag ao PIFO paa anao POFO qao nido, 
8 88 1.78 176481.88 90 1.65 166386.66 91 1:57 171756.48 
9 89 1.23 118728.54 91 1.20 123921.95 93 1.14 122017.14 
10 91 0.74 72991.02 92 0.71 78193.55 93 0.68 74526.40 
11 92 0.49 49849.71 92 0.47 51103.55 94 0.39 41299.84 
12 94 0.44 43077.71 94 0.40 45441.27 95 0.37 42427.26 
13 95 0.37 38305.11 95 0.35 40129.54 96 0.27 30554.28 
14 95 0.31 31613.60 97 0.31 33325.60 97 0.20 22460.50 
15 96 0.22 23545.31 98 0.20 24116.44 99 0.14 15503.14 


: OE 算法 中 的 平均 迭代 次 数 是 指 在 对 数据 进行 整体 估计 时 的 平均 迭代 次 数 ， 如 果 估 计 过 程 不 需要 整体 估计 即 已 成 功 完成 ， 则 该 


iE: 
批 数据 的 迭代 次 数 为 0。 
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X6 05 时 OE 算法 的 估计 估计 成 功率 和 平均 迁 代 次 数 
被 试 人 数 
包含 的 基 1000 2000 4000 
TET H IEH 平均 执行 SE 43 亚 均 执行 SE 43 平均 执行 
5 37 1.98 59247.69 46 1.65 60889.27 57 1.57 65979.07 
6 45 1.73 51665.79 61 1.50 59236.04 63 1.44 58697.26 
7 56 1.54 51053.47 69 1.47 54194.22 72 1.39 52665.52 
8 74 1.59 52259.96 TI 1.41 47412.48 79 1.38 57552.01 
9 81 1.24 37851.94 85 1.14 42252.64 9] 1.07 42516.31 
10 89 1.06 30857.39 91 1.05 37500.04 93 1.01 40903.18 
OF 算法 对 QJ 的 估计 结果 
100 5 实证 数据 分 析 
s 7 为 了 进一步 评价 两 种 算法 的 性 能 , 将 它们 应 用 
f so M 到 一 批 实证 数据 上 。 这 批 实证 数据 是 来 自 于 某 市 高 
-^— Q2-2000 中 的 一 次 月 考 , 选取 了 数学 试卷 中 与 概率 有 关 的 试 
a DUNS 题 。 这 部 分 测试 题 考察 了 随机 事件 ,样本 空间 , 十 
0 一 和 一 典 概率 , 使 用 频数 估计 概率 共 4 个 属性 。 每 个 属性 
基础 项 目的 数量 有 5 个 连续 的 掌握 类 别 : 不 了 解 ， 了 解 ， 理解 ， 掌 
图 7 OE 算法 对 0, 的 估计 结果 握 和 应 用 , 分 别 用 0, 1, 2, 3, 4 表示 。 基 于 这 4 个 属 
性 ， 由 学 科 专 家 共 编制 了 20 个 题 , 一 共有 1960 个 
T OE 算 法 对 205 的 平均 迭代 次 数 考生 完成 了 测验 。 
M 以 专家 界定 的 “初始 O EPR 7) 作 为 输入 ， 
is 分 别 采 用 前 面 提 出 的 两 个 算法 来 验证 或 估计 O ^B 
- Fu MS 阵 。 对 于 JE FRA, HIIS ARARA 4, 这 
l -4- Q2-2000 个 结果 比 前 面 模拟 研究 中 的 迭代 次 数 要 多 ,这 也 表 
ED SEM 明 对 于 实际 的 测验 数据 通常 是 需要 更 多 次 的 迭代 
45 6 7 8 9 10 才能 够 达到 算法 的 收敛 条 件 。JE 算法 估计 得 到 的 
基础 项 目的 数量 “建议 2 矩阵 "如 网 络 版 附录 中 的 表 A3 所 示 。 可 以 
图 8 OE 算法 对 0 的 平均 迭代 次 数 看 出 , 一 方面 ,JE 算法 建议 修改 6 个 题目 , 共 涉及 
表 7 概率 数据 对 应 的 原始 O 矩阵 
题目 编号 属性 1 属性 2 属性 3 属性 4 题目 编号 属性 1 属性 2 属性 3 属性 4 
1 1 1 0 0 11 0 0 4 2 
2 0 0 2 1 12 0 4 0 1 
3 0 3 0 4 13 2 0 3 0 
0 0 2 0 14 0 1 0 3 
5 1 2 0 0 15 2 1 0 0 
6 0 1 1 0 16 0 1 1 0 
7 0 2 0 0 17 0 2 0 0 
8 3 0 0 1 18 4 0 0 1 
9 1 1 0 0 19 0 0 4 2 
10 1 2 0 0 20 0 1 0 1 
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到 7 个 属性 ,并且 对 这 7 个 属性 都 是 属性 水 平 上 的 
修改 ， 即 认定 初始 2 矩阵 出 现 了 错误 类 型 I。 另 一 
方面 ,参数 估 计 的 结果 表明 考生 的 属性 掌握 模式 不 


样 ,在 基础 题 中 加 入 “可 达 秆 阵 "对 于 Q 矩阵 估计 的 
影响 等 (Chen et aL, 2015; THR F, 2019; 彭 亚 
p 等 ， 2016, 2018; Gu et al., 2018; Gu & Xu, 2021), 


是 均匀 分 布 的 ， 整 个 数据 中 只 出 现 了 76 种 属性 掌 
握 模 式 。 

对 于 OE 算法 , 我 们 选择 了 初始 O 和 矩阵 中 的 5 
个 题目 ( 表 A4 中 灰色 背景 显示 的 题目 )， 选 择 这 S 
题目 的 原因 是 学 科 专 家 对 这 5 道 题 的 属性 定义 完全 
一 致 , 并且 它们 在 JE 算法 的 建议 9 矩阵 中 也 得 到 
了 验证 。 余 下 的 15 道 题 作 为 “新 题目 ”, 将 它们 逐个 
JH OE 算法 进行 估计 。 当 所 有 的 “新 题目 ”完成 了 估 
计 , 再 用 下 算法 对 所 有 题目 进行 联合 估计 ,， 这样 就 
得 到 了 OE 算法 建议 的 O 和 矩阵， 如 网 络 版 附录 中 的 
表 A4 所 示 。 可 以 看 出 , OE 算法 建议 修改 6 个 题目 ， 
共 涉 及 6 个 属性 。 除 了 第 19 题 之 外 , H JE 和 OE 
两 种 算法 得 到 的 建议 O 矩阵 是 完全 一 致 的 。 对 于 第 
19 题 ,专家 界定 的 初始 向 量 为 [0042], 正和 OE 算 
法 得 到 的 属性 向 量 分 别 是 [0 03 3] 和 [0 043]。 在 与 
5 位 一 线 的 教师 进行 讨论 之 后 ,他 们 其 中 的 4 位 都 
倾向 于 同意 OE 算法 得 到 的 结果 ,即将 第 4 个 属性 
初始 定义 的 水 平 2 修改 为 水 平 3。 


6 讨论 与 进一步 的 研究 方 回 


本 研究 将 适合 二 级 属性 @ 矩阵 的 5S 佑 计量 拓 
展 到 多 级 属性 的 QO 和 矩阵 估计 中 ,使 得 多 级 属性 O 算 
阵 的 验证 和 估计 成 为 可 能 ， 并 针对 实际 应 用 中 的 两 
种 常见 情境 ,分别 介绍 了 两 种 算法 : 即 了 正和 OE 算 
法 ,它们 分 别 适 用 于 不 同 的 场合 。 当 手头 已 有 04E 
阵 的 初 值 (可 以 由 专家 来 初步 界定 ) 时 ， 可 以 采用 JE 
算法 进行 验证 , 而 OE 算法 是 当 手 头 只 有 少 部 分 项 
目的 属性 向 量 已 经 界定 , 需要 对 更 多 的 项 目 进 行 定 
义 时 使 用 。 模拟 实验 结果 表明 ,尽管 多 级 属性 O XB 
阵 的 搜索 空间 相对 于 二 级 属性 @ 和 矩阵 更 大 , 但 这 两 
种 算法 在 各 自 适 用 的 情况 下 都 有 较 高 的 估计 成 功率 。 
虽然 正和 OE 算法 在 模拟 条 件 下 取得 了 较 好 的 
结果 ， 即 使 如 此 , JE 和 OE 算法 仍然 需要 在 更 复杂 
的 情况 中 去 验证 , 对 于 JE 算法 , 这 里 只 考虑 “初始 
Q 矩阵 ”中 包含 的 错误 项 目 较 少 ， 对 于 更 多 错误 时 
的 估计 或 者 所 能 容忍 的 最 大 错误 项 目 数量 需要 进 
一 步 研究 ; 对 于 OE 算法 , 研究 中 随机 选择 了 100 
批 < 基 础 项 目 ”， 这 100 批 “ 基 础 项 目 ” 的 质量 有 好 有 
坏 ， 并 没有 考虑 “基础 项 目 ” 的 质量 对 于 估计 的 影响 ， 
如 果 进 一 步 研究 “基础 项 目 * 的 设计 , 使 之 更 有 利于 
“新 项 目 * 的 估计 ,就 像 诊断 测验 中 的 @ 和 矩阵 设计 一 


应 该 是 很 有 意义 的 工作 。 本 研究 中 无 论 是 JE 还 是 
OE 算法 ， 只 考虑 了 两 种 错误 类 型 , 实际 上 , 还 有 可 
能 存在 其 它 的 错误 类 型 ， 未 来 需要 对 其 它 更 多 可 能 
的 情况 进行 研究 。 另 外 ,现实 的 测验 情境 往往 是 很 
复杂 的 ， 比 如 考生 可 能 是 存在 多 种 解 题 策略 的 ， 因 
此 ,结合 多 种 策略 的 诊断 测验 中 C 和 矩阵 的 估计 需要 
进一步 考虑 (黄玉 等 , 2019)。 测 验 的 属性 间 很 可 能 
存在 某 种 层级 关系 ( 喻 晓 锋 等 , 2021), 属性 间 存 在 
层级 关系 时 的 多 值 o 矩阵 估计 也 是 未 来 需要 研究 
的 方向 。 

基于 S 统 计量 的 OQ 和 矩阵 估计 一 个 不 足 之 处 在 于 
需要 花费 较 多 的 时 间 , 这 对 于 实际 应 用 可 能 是 一 个 
潜在 的 缺陷 ， 未 来 对 提出 的 方法 进行 时 间 效 率 上 的 
改进 或 研究 时 间 效 率 更 高 的 方法 都 值得 进一步 研 
究 。 比 如 Yu 和 Cheng (2020) 的 研究 表明 , 0-1 计 分 
下 基于 残 差 统计 量 的 统计 量 比 基 于 8 统计 量 在 运行 
效率 上 有 优势 ,因此 将 基于 残 差 的 统计 量 拓 广 到 多 
值 属性 诊断 测验 的 @ 和 矩阵 估计 值得 考虑 ; 未 来 也 需 
要 进一步 考虑 一 些 非 参数 的 方法 ， 因 为 它们 通常 对 
于 样本 量 的 要 求 较 小 ,并 且 有 执行 效率 上 的 优势 
( 刘 娜 SE, 2021); 将 基于 深度 学 习 等 一 些 算法 拓 广 
到 多 值 属性 诊断 测验 的 @ 和 矩阵 估计 ( 张 玉 柳 等 ， 
2021; Li et al., 2022) 也 需要 深入 研究 。 

实证 数据 的 分 析 表 明 , 本 研究 中 提出 的 基于 S 
统计 量 的 联合 估计 算法 和 在 线 估 计算 法 可 以 在 实 
际 中 应 用 , 并且 结果 显示 专家 对 于 题目 属性 向 量 的 
错误 定义 更 容易 出 现在 高 估 或 低估 属性 的 水 平 上 ， 
不 太 容 易 出 现 完 全 缺失 某 个 属性 或 包含 额外 的 属 
性 等 更 严重 的 情况 。OE 算法 的 一 个 副产品 是 同时 
将 新 项 目的 参数 进行 了 估计 , 并且 它 能 保证 与 基础 
项 目的 参数 处 于 同一 个 尺度 上 。 将 属性 间 的 关系 纳 
人 考虑 需要 进一步 研究 , 未 来 也 需要 将 算法 应 用 到 
其 它 的 诊断 模型 中 (Ma & de la Torre, 2019; Zhan et 
al., 2020)。 
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Abstract 


Cognitive diagnosis has recently gained prominence in educational assessment, psychiatric evaluation, and 
many other disciplines. Generally, entries in the Q-matrix of traditional cognitive diagnostic tests are binary 
(two levels, defined as 0 and 1). Polytomous attributes (multi-levels, defined as 0, 1, ...), particularly those 
defined as part of the test development process, can provide additional diagnostic information. Compared to 
binary attributes, polytomous attributes can not only describe the student's knowledge profile, but can provide 
more extensive details. 

As we all know, Q-matrix impacts the accuracy of cognitive diagnostic assessment greatly. Research on the 
effect of parameter estimation and classification accuracy caused by the error in Q-matrix already existed, and it 
turned out that Q-matrix gotten from expert definition or experience was more easily subject to be affected by 
subjective factors, lead to a misspecified Q-matrix. Under this circumstance, it's urgently needed to find more 
objective polytomous-attribute Q-matrix verification and inference methods. 

The present research proposes the verification and estimation of expert-defined polytomous attribute 
Q-matrix based on the polytomous deterministic inputs, noisy, and" gate (p-DINA) model. We intend to extend 
the methods adapted to binary Q-matrix verification and estimation to polytomous attribute Q-matrix, and the 
proposed methods which can be used in different conditions are joint estimation and online estimation. 
Simulation results show that: the joint estimation algorithm can be applied to the Q-matrix validation which 
needs an initial Q-matrix defined by experts, the online estimation algorithm can be applied to online estimate 
the “new items" based on a certain number of “based items". Under the various settings in the simulations, the 
two estimation algorithms can recover the correct polytomous-attribute Q-matrix at a high probability. Empirical 
study also indicates that the two proposed algorithms can be applied in Q-matrix validation or estimation for 
CDA with polytomous attributes. 


Keywords  polytomous attribute, Q-matrix, p-DINA model, S statistics 
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附录 : 


30 题 对 应 的 O 和 矩阵 o? 


附 表 AT 
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附 表 A2 15 题 对 应 的 O 矩阵 QD 


属性 
项 目 编号 - - - - 
属性 1 属性 2 属性 3 属性 4 

1 1 0 0 0 

2 0 1 0 0 

3 0 0 1 0 

4 0 0 0 1 

5 0 0 0 0 

6 1 2 0 0 

ri 0 I 2 0 

8 0 0 1 2 

9 0 0 0 1 

10 2 0 0 0 

11 2 2 0 1 

12 2 1 0 0 

3 1 0 2 2 

14 0 2 1 0 

15 0 0 2 2 

附 表 A3 由 JE 算法 得 到 概率 论 数据 的 建议 O-matrix 
项 目 编号 im 
属性 1 属性 2 属性 3 

1 1 1 0 0 
2 0 0 2 2 
3 0 3 0 4 
4 0 0 2 0 
5 1 1 0 0 
6 0 2 1 0 
T 0 2 1 0 
8 3 0 0 1 
9 1 1 0 0 
10 1 2 0 0 
11 0 0 4 2 
12 0 4 0 1 
13 3 0 1 0 
14 0 1 0 3 
15 2 2 0 0 
16 0 1 1 0 
17 0 2 0 0 
18 4 0 0 1 
19 0 0 了 了 
20 0 2 0 1 


n 


H: 表格 中 用 粗 斜体 显示 的 元 素 表示 JE 算法 所 修改 后 的 属性 取 值 
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附 表 A4 ”由 OF 算法 得 到 概率 论 数 据 的 建议 O-matrix 


项 目 编号 EE 
属性 1 属性 2 属性 3 属性 4 
1 1 1 0 0 
2 0 0 2 2 
3 0 3 0 4 
4 0 0 2 0 
5 1 1 0 0 
6 0 2 1 0 
7 0 2 1 0 
8 3 0 0 1 
D 1 1 0 0 
10 1 2 0 0 
11 0 0 4 2 
12 0 4 0 1 
13 3 0 3 0 
14 0 1 0 3 
15 2 2 0 0 
16 0 1 1 0 
17 0 2 0 0 
18 4 0 0 1 
19* 0 0 4 3 
20 0 1 0 1 


ik: 阴影 显示 对 应 的 题目 表示 OE 算法 中 的 “基础 题 ” 余下 的 题目 对 应 的 是 需要 估计 的 “新 题 "。 粗 斜体 显示 元 素 表示 OE 算法 所 修 
改 后 的 属性 取 值 。 加 星 号 的 题目 表示 由 OE 算法 给 出 的 建议 值 与 JE 算法 给 出 的 建议 值 不 一 致 的 题目 。 


